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摘要 : 


大 连 116044) 


[ 目的 】 从 不 规范 文本 中 提取 特征 , 识别 网 络 文本 作者 身份 。 【方法 】 提 出 两 种 在 不 规范 文本 中 提取 特征 


的 方法 : 利用 在 Jaccard 系数 的 基础 上 定义 的 不 规范 文本 相似 度 M; 利用 不 规范 文本 在 文本 中 出 现 的 次 数 。[ 结 
E] 两 种 特征 的 识别 正确 率 分 别 达 到 85. 1961 80.2%, 加 入 这 两 种 特征 后 , 传统 的 基于 统计 值 特 征 的 分 类 器 识别 
正确 率 分 别提 高 5.891 4%。[ 局 限 】 只 考虑 到 网 络 文本 在 词汇 层面 的 不 规范 性 , 并 没有 针对 更 高 层面 的 特性 进 
行 研 究 , 如 句法 层面 、 结 构 层 面 。[ 结论 】 本文 提 出 的 特征 提取 方法 ,可 以 有 效 地 提取 不 规范 文本 特征 ,有 助 于 


作者 身份 识别 系统 识别 正确 率 的 提升 。 
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密 相 联 , 与 现 有 的 一 些 典 型 特征 (如 统计 值 特征 、 多 层 
次 特征 ) 可 以 互补 。 因 为 ,不 规范 文本 特征 正 是 针对 由 


作者 身份 识别 作为 自然 语言 处 理 的 一 个 重要 方 
向 ,一 直 倍 受 关注 。 随 着 微 信 、 微 博 等 社交 网 络 的 兴 
起 与 大 数据 时 代 的 到 来 , 出 于 对 道德 与 信息 安全 方面 
的 考虑 ， 人们 对 网 络 文本 作者 身份 正确 认证 的 需求 变 
得 更 加 迫切 。 如 在 与 情 监控 中 , 一 些 恶 意 信息 是 否 出 
于 同一 作者 , 又 如 垃圾 邮件 的 作者 归属 问题 。 而 在 各 
种 作者 身份 识别 技术 的 应 用 中 ， 有 一 个 问题 一 直 对 识 
别 效果 产生 负面 影响 , 即 " 文 本 的 书写 不 规范 ”。 

传统 的 作者 身份 识别 系统 ,其 识别 正确 率 大 都 建 
立 在 样本 书写 规范 的 基础 上 。 而 当 识别 那些 书写 不 规 
范 的 样本 时 , 各 系统 的 识别 正确 率 就 会 大 幅 下 降 。 即 
使 某 些 系 统考 虑 了 “书写 不 规范 ”的 问题 , 也 只 是 简单 
的 排除 或 还 原 ,并 没有 进行 更 深入 的 处 理事 实 上 ， 
不 规范 的 文本 表达 往往 是 作者 独特 写作 风格 的 集中 体 
现 ,。 因 此 ,本文 尝 试 从 不 规范 文本 中 提取 特征 , 用 于 作 
者 身份 识别 。 这 一 提取 特征 的 角度 与 网 络 应 用 环境 紧 


于 书写 不 规范 而 识别 率 较 低 的 样本 而 提出 的 。 
2 不 规范 文本 的 相关 研究 


不 规范 文本 指 由 于 作者 的 不 规范 或 错误 的 书写 行 
为 而 产生 的 文本 。 这 些 文本 产生 的 原因 主要 有 拼写 错 
误 、 口 语词 汇 、 语 气 填 补 词 、 网 络 用 语 、 表 情 符号 、 
缩 略 语 和 倡 语 等 上 。 在 英文 的 书写 环境 下 ,例如 “loP、 
“so000”、“1ist*? 和 “CU” 等 都 属于 不 规范 文本 。 不 规范 
文本 在 正规 出 版 物 中 很 少 出 现 , 但 在 以 博客 为 代表 的 
网 络 文本 中 却 随处 可 见 。 因 此 , 在 大 多 数 针 对 网 络 文 
本 开展 的 研究 中 ,都 对 不 规范 文本 有 所 涉及 ， 主 要 研 
究 内 容 可 归纳 为 以 下 4 个 方面 : 

(1) 认为 存在 不 规范 文本 是 网 络 文本 的 特点 , 但 
未 针对 不 规范 文本 开展 研究 。 目 前 多 数 研 究 虽 然 认为 
网 络 文本 的 不 规范 化 对 研究 结果 产生 了 负面 影响 , 但 
于 所 设计 的 系统 鲁 棒 性 很 强 , 所 以 仍 能 取得 很 好 的 
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实验 效果 。 因 此 , 并 未 针对 不 规范 文本 进行 特定 研究 。 
如 Nie 等 在 进行 超 文本 问答 系统 方面 的 研究 时 ， 就 提 
到 了 文本 的 拼写 错误 、 倡 语 和 缩写 可 能 是 影响 分 类 正 
确 率 的 原因 四。 

(2) 针对 不 规范 文本 进行 实验 , 取得 了 良好 的 实 
验 结果 。 如 陈 叶 旺 等 认为 由 于 网 络 文本 的 不 规范 性 使 
得 其 难以 挖 气 , 为 此 提出 一 种 基于 百度 百科 的 网 络 文 
本 语义 主题 抽取 方法 , 针对 不 规范 文本 进行 实验 。 
为 百度 百科 的 词 条 内 容 丰 富 ， 即 使 一 些 不 规范 的 网 络 
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(如 TF-IDF) 获 得 文本 的 关键 词 ， 从 而 将 一 段 文本 转换 
为 由 关键 词组 成 的 向 量 , 再 利用 余弦 相似 度 或 Jaccard 
系数 表征 相似 度 外 。 而 本 文 在 计算 相似 度 M 时 ,以 文 
本 中 包含 的 不 规范 文本 作为 关键 词 , 通过 一 种 改进 的 
Jaccard 系数 表征 相似 度 。Jaccard 系数 等 于 两 个 集合 的 
交集 除 以 两 个 集合 的 并 集 。 本 文 的 相似 度 计算 也 遵循 
这 一 思想 , 但 考虑 到 本 文 对 相似 度 的 应 用 并 不 是 单纯 
地 判断 两 个 文本 是 否 相 似 , 而 是 将 同一 文本 与 多 个 文 
本 的 相似 度 进行 比较 , 判断 该 文本 与 哪个 文本 更 相似 。 


用 语 也 包含 其 中 , 所 以 无 论 是 在 规范 的 还 是 不 规范 的 
文本 上 进行 实验 ,都 取得 了 很 好 的 效果 品 。 

(3) 将 不 规范 文本 还 原 为 规范 文本 。 如 张 文 文 等 
抽取 文本 观点 名 的 实验 中 , 利用 “校对 词典” “领域 名 
词 词典 "和 “网 络 情感 词 词典 ”将 不 规范 文本 还 原 为 规 
范文 本 , 并 标注 其 情感 倾向 由。 又 如 Dehkharghani 等 
在 对 Twitter 上 的 文本 进行 情感 分 类 时 , 将 特殊 符号 和 
表情 符号 还 原 为 对 应 的 情感 门 。 

(4) 从 不 规范 文本 中 提取 特征 。 前 三 个 方面 , 虽然 
在 一 定 程度 上 消除 了 不 规范 文本 对 相关 研究 所 带 来 的 
负面 影响 , 但 都 没有 充分 利用 不 规范 文本 。 实 际 上 , TE 
以 作者 身份 识别 为 代表 的 某 些 研究 领域 ,不 规范 文本 
往往 可 以 提供 很 好 的 区 分 度 。 例 如 有 些 作者 习惯 使 用 
网 络 用语 CU 表示 See You, 而 男 一 些 作者 习惯 在 So 
后 加 多 个 o 表示 更 强烈 的 情绪 。 因 此 ,如果 可 以 找到 
从 不 规范 文本 中 提取 有 效 特征 的 方法 ， 用 于 作者 身份 
识别 。 不 仅 可 以 消除 不 规范 文本 对 识别 带 来 的 负面 影 
响 ,还 可 以 有 效 地 提高 识别 正确 率 。 正如 Iqbal 等 使 用 词 
汇 拼写 错误 和 句法 错误 特征 识别 电子 邮件 作者 身份 四。 


3 不 规范 文本 的 相关 定义 


将 一 个 单词 表 中 的 单词 定义 为 规范 文本 ,采用 查 表 
的 方法 , 找 出 文本 中 不 包括 在 单词 表 中 的 ， 且 不 属于 命 
名 实体 、 数 字 、 网 址 等 文本 的 单词 ， 以 此 作为 不 规范 文 
本 。 同 时 定义 了 不 规范 度 N 和 不 规范 文本 相似 度 M. 

不 规范 度 N 表示 文本 的 不 规范 程度 , 公式 如 下 : 

N= SS () 

其 中 , Sa 为 样本 中 不 规范 文本 数 , S 为 样本 中 单词 
的 总 数 。 

不 规范 文本 相似 度 M 表示 文本 之 间 的 相似 程度 。 
传统 的 文本 相似 度 计算 方法 大 都 是 先 通过 茶 种 算法 
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因此 , 在 进行 这 种 横向 比较 时 , 应 该 满足 如 下 三 个 条 件 : 

(1) 随 着 两 个 文本 之 间 “ 相 同 不 规范 文本 ”数量 的 
增加 , M 值 增 大 。 

Q) 随 着 某 一 “相同 不 规范 文本 ”数量 增加 , M 值 增 
大 。 但 又 不 能 过 大 , 避免 其 一 “相同 不 规范 文本 ”数量 
过 大 , 而 使 M 值 过 大 。 因 为 , 在 比较 诸如 文本 间 有 两 
个 出 现 一 次 的 “相同 不 规范 文本 > 和 有 一 个 出 现 两 次 的 
“相同 不 规范 文本 ”时 ,期 望 前 者 的 M 值 大 于 后 者 。 

(3) 避免 某 一 文本 中 不 规范 文本 过 多 或 过 少 而 带 
来 的 优势 。 

据 此 , 本 文 将 文本 a 与 文本 b 的 不 规范 文本 相似 
度 M 定义 为 : 


n 
Y In(P, 1) x In(Byj +1) 
Ma, = izl 


In(S, +S, +1) ©) 


HP, n 为 两 个 文本 间 不 同 的 “相同 不 规范 文本 ”的 
种 类 数 , Ps 为 文本 a 中 第 i 类 “相同 不 规范 文本 ” 数 , Poi 
为 文本 b 中 第 i 类 “相同 不 规范 文本 ” 数 , Sa WK a P 
不 规范 文本 总 数 , Se 为 文本 b 中 不 规范 文本 总 数 。 

公式 (2) 中 , 计算 所 有 “相同 不 规范 文本 ”之 和 可 以 
满足 条 件 (1)。 将 某 类 “相同 不 规范 文本 ”在 各 文本 中 的 
数目 加 1 取 自 然 对 数 可 以 满足 条 件 (2), 这 样 在 不 规范 
文本 总 数 相 同 的 情况 下 , 一 个 出 现 多 次 的 “相同 不 规 
范文 本 ”和 多 个 出 现 一 次 的 “相同 不 规范 文本 ”的 对 应 
关系 为 21， 即 一 个 出 现 27-1 次 的 “相同 不 规范 文本 ” 
与 n 个 出 现 一 次 的 “相同 不 规范 文本 ”所 得 M 值 相 同 。 
最 后 , 除 以 两 个 样本 所 包含 的 不 规范 文本 数 可 以 满足 
条 件 (3)。 


4 不 规范 文本 的 获取 
针对 英文 博客 提取 不 规范 文本 , 数据 主要 来 源 于 


两 个 语料库 。 其 一 是 由 Schler 等 构建 的 作者 身份 语 料 
库 0020， 该 语料库 包含 Blogger (https://blogger.com/) 上 
的 19 320 位 作者 发 布 的 681 288 篇 博文 。 其 二 是 由 Ward 
构建 的 包含 大 约 35 万 单词 的 Moby His] get?! , 

在 对 Moby 单词 表 进 行 扩展 后 , 最 终 定义 一 个 包 
含 377 121 个 单词 的 单词 表 为 规范 文本 。 在 此 基础 上 ， 
对 作者 身份 语料库 中 18 828 位 作者 发 布 的 517 643 篇 
博文 提取 不 规范 文本 。 具 体 流程 如 下 : 

(1) 文本 预 处 理 。 使 用 斯 坦 福 大 学 NLP 小 组 开发 
的 自然 语言 处 理 软 件 包 M 对 语料库 中 的 语 料 进行 分 词 
和 词 形 还 原 的 处 理 。 

(2) 去 除 命 名 实体 。 使 用 斯 坦 福 大 学 NLP 小 组 开 
发 的 自然 语言 处 理 软 件 包 中 获得 语料库 中 的 命名 实 
体 , 并 将 其 去 除 。 

(3) 初步 获取 不 规范 文本 。 采 用 查 表 法 统计 语 料 
库 中 未 出 现在 单词 表 中 的 单词 与 该 单词 出 现 的 次 数 ， 
以 此 作为 初步 的 不 规范 文本 。 

(4) 筛选 不 规范 文本 。 将 初步 不 规范 文本 中 的 停 
用 词 删 掉 。 


停 用 词 表 如 表 1 ran: 
表 1 HJ 

名 称 示例 

标点 符号 单独 出 现 的 标点 符 号 (如 ,.?); 连续 多 个 标点 符 
号 (如 ???、***、 人 人 不 属于 停 用 词 。 

dl i'm, n't 
数字 12m, 123 
URL http://blogger.com 
邮箱 地 址 123@163.com 
连 字符 T-shirt 
文件 名 123.jpg 
连接 词 website, homepage 


非 英文 中 文 、 韩 文 等 非 英语 文本 


最 终 得 到 不 规范 文本 193 028 种 , 共 1 365 942 个 。 
其 中 完全 由 字母 组 成 的 不 规范 文本 182 549 种 , 共计 
1043 210 ^r, 出 现 次 数 超过 1 次 的 不 规范 文本 65 529 
fh, 共 1 238 443 个 ,出 现 次 数 超过 100 次 的 不 规范 文 
本 1121 种 , 共 809 685 个, 99% 的 不 规范 文本 出 现 次 数 
都 不 超过 60 次 。 出 现 次 数 前 10 的 不 规范 文本 , 与 出 
现 次 数 前 10 的 完全 由 字母 组 成 的 不 规范 文本 如 表 2 
所 示 。 
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表 2 出 现 次 数 前 10 的 两 类 不 规范 文本 


名 次 ”不 规范 文本 出 现 次 数 不 规范 文本 (字母 ) 出 现 次数 
1 ! 66 991 lol 46 286 
2 n 57 664 cuz 20 609 
3 lol 46 286 hmm 12 236 
4 :) 26 929 tt 8 273 
5 cuz 20 609 juz 6 891 
6 ?? 15 121 ang 6 822 
7 n 14 910 wif 6 437 
8 hmm 12 236 omg 6 383 
9 ?! 10 253 sooo 6 258 
10 ??? 9 729 liao 5026 


而 在 不 规范 度 方面 所 有 文本 的 不 规范 度 为 
0.0109。 按 作者 划分 , 每 位 作者 的 平均 不 规范 度 为 
0.01282, 标准 差 为 0.017, 最 高 不 规范 度 为 0.2268， 最 
低 不 规范 度 为 0。 其 中 , 不 规范 度 等 于 0 的 作者 ( 即 书 
写 完全 规范 的 作者 ) 有 521 位 ， 占 作者 总 数 的 2.78%。 
按 博 客 划 分 , 每 篇 博客 的 平均 不 规范 度 为 0.0155, 标 
准 差 为 0.041, 最 高 不 规范 度 为 1, 最 低 不 规范 度 为 0。 
其 中 , 不 规范 度 大 于 0 的 博客 ( 即 存在 不 规范 文本 的 博 
客 ) 有 293 254 篇 ， 占 博客 总 数 的 56.65%。 

由 此 可 见 , 在 作者 身份 语料库 中 存在 大 量 的 不 规 
范文 本 ,可 以 用 来 进行 进一步 实验 ,同时 ,也 在 一 定 程 
度 上 证 明了 网 络 文本 中 普遍 存在 文本 不 规范 的 情况 。 


5 实验 结果 及 分 析 


5.1 基于 基本 统计 值 特征 的 分 类 实验 

为 了 判断 不 规范 文本 特征 的 有 效 性 , 与 不 规范 文 
本 特征 进行 对 比 实验 , 采用 18 种 基本 统计 值 作为 特征 
识别 作者 身份 , 包括 : 字符 数 、 数 字 字 符 数 、 小 写字 母 
数 、 大 写字 母 数 、 单 词 数 、 不 同 单词 数 、 标 点 符号 数 、 
不 同 标 点 符号 数 、 字 长 大 于 4 的 单词 数 、 平 均 字 长 、 
出 现 一 次 单词 数 、 出 现 二 次 单词 数 、 出 现 二 次 以 上 单 
词 数 、 句 子 数 、 平 均 句 长 (单词 数 )、 平 均 句 长 (字符 数 )、 
最 长 句子 单词 数 、 最 短 句 子 单词 数 。 

针对 基本 统计 值 特征 的 实验 在 数据 挖掘 软件 
WEKAD 下 完成 ,分 别 采 用 贝 叶 斯 网 络 (Bayes 
Networg 、 支 持 向 量 机 (Support Vector Machine), 、 神 经 
网 络 (Neural Networks) 和 套 袋 (Bagging) 这 4 种 分 类 需 
识别 样本 。 其 中 ， 贝 叶 斯 网 络 分 类 器 基于 树 扩展 朴素 


XIANDAI TUSHU QINGBAO JISHU 


贝 叶 斯 (Tree Augmented Naive Bayes, TAN) 算 法 设计 
完成 ; 支持 向 量 机 分 类 需 基 于 SMO(Sequential 
Minimal Optimization) 算 法 设计 完成 , 核 函 数 选 择 
Polynomial Kernel; 神经 网 络 分 类 兢 采 用 反 向 传播 训练 
样本 , 学 习 率 (Learning Rate) 为 0.3, 动量 (Momentum) 为 
02, 最 高 迭代 次 数 为 500 次 ; 套 袋 分 类 器 以 决策 树 作 
为 基本 模型 迭代 10 次 后 获得 分 类 结果 11。 

在 作者 身份 语料库 中 ,随机 抽取 10 组 每 组 6 位 作 
者 的 实验 样本 , 进行 10 折 交 叉 验 证 实验 。 实 验 结果 的 
平均 值 如 表 3 所 示 : 

KI 实验 结果 平均 值 对 照 表 


EST 识别 正确 率 (%) 用 时 (s) 
贝 叶 斯 网 络 64.3 2 
支持 向 量 机 58.7 8 
神经 网 络 67.8 177 
ER 67.3 9 


根据 上 述 实验 结果 ,综合 考虑 识别 正确 率 和 用 时 ， 
最 终 选 择 套 袋 分 类 器 作为 后 续 实 验 的 分 类 央 。 
52 ”基于 不 规范 文本 相似 度 M 的 分 类 实验 

该 分 类 实验 以 不 规范 文本 相似 度 M 作为 特征 。 需 
要 说 明 的 是 , 本 实验 在 计算 不 规范 文本 相似 度 M HT, 
考虑 到 诸如 “soo000” 和 “sooo0o”、“!11” 和 “111!* 属 于 同类 
不 规范 文本 ， 因 此 采用 类 似 词 干 还 原 的 方法 将 其 合 # 
计算 ， 即 在 计算 不 规范 文本 相似 度 M 之 前 ,“sooooo” 
和 “soooo0” 都 转换 为 “so00”。 

实验 分 别 采用 基于 KK 近邻 的 贝 叶 斯 算法 和 合 一 算 
法 对 样本 进行 分 类 。 所 谓 基于 K 近邻 的 贝 叶 斯 算法 是 
指 : 分 别 计算 未 知 样本 与 每 一 个 已 知 样本 的 不 规范 文 
本 相似 度 M, 并 找到 M 值 最 大 的 K 个 样本 ,以 每 一 类 
样本 在 K 个 样本 中 的 比值 作为 类 条 件 密度 ,最 后 利用 


很 好 的 分 类 效果 。 因 此 , 实验 只 对 上 述 两 类 样本 以 外 
的 样本 有 效 ， 而 样本 有 效率 为 有 效 样 本 数 与 所 有 样本 
数 的 比值 。 
根据 上 述 算法 分 别 设计 相应 的 分 类 器 ,并 从 作者 
身份 语料库 中 ,随机 选 出 文本 数 属于 多 、 中 、 少 的 6 
位 作者 共计 1 652 个 样本 , 进行 10 折 交 又 验 证 实验 。 
具体 实验 数据 如 表 4 和 表 5 所 示 。 其 中 , 表 4 记录 了 
样本 基本 信息 ; 表 5 是 分 别 采 用 两 种 分 类 器 识别 有 效 
文本 的 实验 结果 , 该 实验 验证 了 在 6 位 作者 中 选取 2 
位 作者 的 15 种 组 合 、 选 取 4 位 作者 的 15 种 组 合 和 选 
取 6 位 作者 的 1 种 组 合 的 分 类 效果 。 
da 样本 信息 表 
作者 编号 文本 大 小 ”样本 数 ” 作 者 编号 文本 大 小 ”样本 数 


Al 434KB 844 A4 143KB 73 
A2 409KB 362 AS 75KB 178 
A3 157KB 127 A6 36KB 68 


表 5 实验 结果 平均 值 对 照 表 


规范 无 匹配 有 效 有 效率 n, hE 
d A 
i ESSE 
SES 近 令 
不 规范 293 72 185 336 KEF 950 
文本 4— 95.4 
本 乡 
y — = — 100 Bagging 88.1 
不 规范 KIER 88.5 
à 585. 13.77 379 343 
F 文本 合 一 。 89.2 
本 乡 
iim — — — 100 Bagging 75.4 
不 规范 K 近邻 83.2 
87.8 19.5 579 35.0 
文本 7 B 合 一 851 
Zk£ 
I 一 = 100 Bagging 66.8 


为 了 更 准确 地 验证 不 规范 文本 相似 度 M 的 识别 


贝 叶 斯 公式 判断 未 知 样本 的 归属 类 别 。 所 谓 合 一 算法 
是 指 : 把 每 一 类 中 的 所 有 已 知 样本 合 而 为 一 个 大 的 已 
知 样本 , 计算 未 知 样本 与 其 的 相似 度 M, 并 将 未 知 样 
本 归属 于 M 值 最 大 的 类 别 。 

由 于 不 规范 文本 相似 度 M 表示 文本 间 不 规范 文 
本 方面 的 相似 程度 , 所 以 对 于 那些 没有 出 现 不 规范 文 
本 的 样本 ( 即 不 规范 度 N 等 于 0 的 样本 ), 本文 所 设计 
的 分 类 融 并 没有 分 类 效果 。 此 外 , 对 于 那些 与 所 有 已 
知 样本 没有 相同 的 不 规范 文本 的 未 知 样本 ( 即 所 有 相 
似 度 M 都 等 于 0 的 样本 ), 本 文 所 设计 的 分 类 器 也 没有 
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效果 , 在 作者 身份 语料库 中 , 分 别 随机 抽取 10 组 每 组 
6 位 作者 、4 位 作者 和 2 位 作者 共 30 组 数据 , 进行 10 
折 交 又 验证 , 实验 结果 如 表 6 所 示 。 

通过 上 述 对 比 实验 可 以 发 现 , 基于 相似 度 M 的 
分 类 器 样本 有 效率 在 40% 左 右 。 即 ， 它 对 于 大 约 60% 
的 样本 是 没有 识别 能 力 的 ， 而 这 些 样 本 中 大 部 分 属 
于 文本 规范 的 情况 ， 另 一 小 部 分 属于 无 相同 不 规范 
文本 的 情况 。 和 大 多 数 分 类 算法 类 似 , 两 种 分 类 顺 在 
2 类 问题 上 的 识别 效果 最 好 ， 随 着 类 别 的 增加 识别 正 
确 率 有 所 下 降 。 此 外 , 由 于 合 一 算法 在 进行 决策 时 用 
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表 6 随机 抽取 样本 实验 结果 平均 值 对 照 表 
规范 无 匹配 有 效 有 效率 ， 平均 正 


作者 数 特征 集 文本 文本 文本 (M) A ERE 确 率 (%) 
不 规范 
E dE AR E A gs 
H Z 
sdi "ED — 100 Bagging 88.5 
不 规范 ndo 
4 文本 184 50 159 404 , g67 
H Z 
na —  —  .-— 100 Bagging 74.6 
不 规范 P eios 
! 文本 233 66 238 43 147 a 
E= Z 
ut —  -— 100 Bagging 673 


到 的 样本 信息 较 多 ， 所 以 除了 个 别 样 本 外 合 一 算法 
的 识别 效果 要 优 于 基于 K- 近 邻 的 贝 叶 斯 算法 ,但 后 
一 种 算法 计算 速度 较 快 并 具有 更 好 的 可 扩展 性 ， 当 
有 新 的 样本 出 现时 , 不 再 需要 重复 计算 旧 样 本 之 间 
的 相似 度 。 

在 对 有 效 样 本 的 识别 中 ， 基 于 不 规范 文本 相似 度 
M 的 分 类 器 识别 正确 率 平均 要 高 于 后 者 约 13%。 随 着 
类 别 数 的 增加 ,后 者 的 识别 正确 率 下 降 趋势 较 前 者 更 
迅速 。 这 就 使 得 ， 类别 数 越 多 以 不 规范 文本 相似 度 M 
为 特征 的 分 类 器 优势 越 明 显 。 虽 然 样 本 有 效率 不 高 是 
不 规范 文本 特征 的 先天 缺点 , 但 是 能 够 明确 地 判断 出 
可 识别 样本 与 不 可 识别 样本 这 一 特点 , 使 其 可 以 很 容 
易 与 其 他 分 类 器 相 结 合 。 
5.3 ”基于 不 规范 文本 出 现 次 数 的 分 类 实验 

除了 以 不 规范 文本 相似 度 M 为 特征 外 , 本 文 还 以 
不 规范 文本 在 样本 中 出 现 的 次 数 为 特征 。 这 样 就 可 以 
把 样本 表示 为 一 组 由 不 规范 文本 出 现 次 数组 成 的 向 量 
(CN2N3 No。 而 特征 向 量 的 维度 n 由 已 知 样本 中 
不 规范 文本 的 种 类 决定 。 

首先 针对 5.2 节 中 获取 的 6 位 作者 进行 分 类 实验 。 
实验 在 数据 挖掘 软件 WEKA FER, 采用 以 决策 树 作 
为 基本 模型 的 套 袋 分 类 器 ， 并 对 比 以 基本 统计 值 为 特 
征 的 分 类 效果 , 实验 结果 如 表 7 所 示 。 可 以 发 现 ， 以 不 
规范 文本 出 现 次 数 为 特征 和 以 不 规范 文本 相似 度 M 
为 特征 的 分 类 器 , 在 样本 有 效率 方面 基本 一 致 。 因 为 
两 种 特征 针对 的 不 规范 文本 种 类 是 一 样 的 ， 细 微 的 差 
别 在 于 后 者 将 诸如 “sooooo” 和 ”soooo”" 这 样 的 不 规范 文 


本 进行 合并 。 在 识别 正确 率 方面 , 前 者 略 低 于 后 者 , 但 
前 者 的 特征 形式 更 为 标准 ,可 以 应 用 于 绝 大 多 数 分 类 
算法 ,此 外 , 使 用 相同 分 类 器 的 前 提 下 ,以 不 规范 文本 
出 现 次 数 为 特征 的 分 类 器 ,其 识别 正确 率 要 明显 高 于 
基本 统计 值 特 


征 。 


un 
~ 
H 
ER 
«sd 
TH 
38 
飞 
E: 
si 
c 
bi 
Dl 
En 


规范 ”无 匹配 ”有效 ”有 效率 平均 正确 率 
XR x^ xeu) (96) 


作者 数 特征 集 


不 规范 


due 29.3 7.5 18.2 — 330 91.6 
nt i 一 = 100 88.1 
, ien 58.5 14.2 373 3338 83.8 
il i — 二 100 75.4 
din 87.8 202 572 346 80.2 
7 = — 100 66.8 


5.4. PELARE EnA EA C 
克服 不 规范 文本 特征 样本 有 效率 不 足 的 方法 有 两 
fh: 其 一 , 将 不 规范 文本 次 数 特征 与 其 他 特征 连接 到 
一 起 形成 一 个 新 的 特征 向 量 ; 其 二 ， 先 用 基于 不 规范 
文本 特征 的 分 类 器 对 有 效 样 本 分 类 ,再 用 其 他 分 类 器 
分 类 无 效 样本 。 根 据 这 两 种 方法 , 本文 将 不 规范 文本 
村 征 与 基本 统计 值 特 征 结合 到 一 起 识别 作者 身份 。 
根据 方法 一 , 将 不 规范 文本 特征 与 基本 统计 值 特 
征 连接 到 一 起 形成 一 个 新 的 特征 向 量 。 并 用 套 袋 分 类 
器 对 5.2 节 中 获取 的 6 位 作者 进行 10 折 交 义 验 证 实验 ， 
实验 结果 如 表 8 所 示 : 
表 8 ”实验 结果 平均 值 对 照 表 


作者 数 特征 集 有 效率 (%) ”正确 率 (%) ”提升 (%) 

不 规范 文本 FI 33.0 91.6 

2 基本 统计 值 F2 88.1 0.9 
F1+F2 89.0 
不 规范 文本 FI 33.8 83.8 

4 基本 统计 值 F2 75.4 1.6 
F1+F2 A 77.0 
不 规范 文本 FI 34.6 80.2 

6 基本 统计 值 F2 om 66.8 4 
F1+F2 70.8 
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根据 方法 二 , 首先 使 用 基于 合 一 算法 的 以 不 规范 
文本 相似 度 M 为 特征 的 分 类 器 分 类 样本 。 再 用 以 基本 
统计 值 为 特征 的 Bagging 分 类 器 分 类 前 者 不 能 识别 的 
无 效 样本 。 对 5.2 节 中 获取 的 6 位 作者 进行 10 ITX 
验证 实验 , 实验 结果 如 表 9 所 示 : 
表 9 实验 结果 平均 值 对 照 表 


作者 数 特征 集 有 效率 (%) EMRA) ”提升 (%) 

不 规范 文本 Fl 33.6 95.4 

2 基本 统计 值 F2 88.1 1.4 
F1+F2 a 89.5 
不 规范 文本 FI 34.3 89.2 

4 基本 统计 值 F2 TM 754 3.5 
F1+F2 78.9 
不 规范 文本 FI 35.0 85.1 

6 基本 统计 值 F2 inm 66.8 5.8 
F1+F2 72.6 


为 了 进一步 验证 不 规范 文本 特征 的 识别 效果 , 5C 

验 又 针对 52 节 中 随机 抽取 的 30 组 数据 进行 10 折 交 
又 验证 ,实验 结果 如 表 10 所 示 : 

表 10 实验 结果 平均 值 对 照 表 
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此 , 本 文 设计 并 完成 以 相似 度 M 为 特征 和 以 不 规范 文 
本 次 数 为 特征 的 作者 识别 实验 。 实 验 结果 表明 ,基于 
不 规范 文本 的 特征 可 以 有 效 地 识别 作者 身份 。 所 设计 
的 特征 模型 与 网 络 应 用 环境 紧密 相 联 , 探索 性 地 提出 
从 不 规范 文本 中 提取 特征 来 识别 作者 身份 , 这 与 现今 
大 多 数 特征 模型 提取 特征 的 角度 不 同 。 因 此 , 它 可 以 
很 容易 地 和 其 他 特征 模型 相 结 合 或 作为 其 他 特征 模型 
的 有 效 补 充 手 段 。 

实验 虽然 在 一 定 程度 上 验证 了 不 规范 文本 用 于 作 
者 识别 的 有 效 性 , 但 还 存在 一 些 不 足 之 处 : 

(1) 本 文 只 是 研究 了 作者 身份 识别 中 “属于 哪个 
作者 ”这 个 问题 ,而 没有 涉及 到 “是 否 属于 这 个 作者 ”的 
问题 。 这 两 个 问题 不 同 之 处 在 于 : 前 者 可 以 是 2 类 问 
题 也 可 以 是 多 类 问题 , 在 已 知 样本 里 各 类 别 的 样本 都 
FE, 并 且 未 知 样本 必 属 于 某 一 类 别 , 其 往往 进行 的 
是 横向 对 比 , 判断 未 知 样 本 更 接近 于 哪 一 个 已 知 样本 ; 
后 者 一 般 是 判断 “是 ”与 “ 否 ” 的 两 类 问题 , 在 已 知 样本 
里 只 有 或 内 需要 “是 ”的 样本 , 通常 需要 给 定 一 个 净值 
来 判断 未 知 样本 是 否 属于 已 知 样本 。 

(2) 只 考虑 到 了 网 络 文本 在 词汇 层面 的 不 规范 性 ， 
并 没有 针对 更 高 层面 的 特性 进行 研究 ， 如 句法 层面 、 
结构 层面 中 。 实 际 上 , 诸如 “你 走 先 *"、“ 表 告诉 我 "等 
在 更 高 层面 上 的 不 规范 书写 行为 , 往往 更 能 体现 作者 
的 写作 习惯 。 


作者 数 特征 集 有 效率 (%) ”正确 率 (%) ”提升 (%) 

不 规范 文本 FI 31.7 95.1 

2 基本 统计 值 F2 88.5 2.1 
F1+F2 90.6 
不 规范 文本 Fl 40.4 86.7 

4 基本 统计 值 F2 idm 74.6 3.1 
F1+F2 77.7 
不 规范 文本 FI 45.6 83.1 

6 基本 统计 值 F2 67.3 5.1 
F1+F2 "s 724 


通过 上 述 实验 可 以 发 现 , 在 引入 不 规范 文本 特征 
后 识别 正确 率 明显 提高 ， 最 高 提升 5.8%。 可 见 , 不 规 
范文 本 特征 可 以 有 效 地 识别 作者 身份 。 相 比 于 方法 一 ， 
方法 二 的 识别 效果 较 好 较 稳 定 。 因 为 方法 二 更 能 体现 
不 规范 文本 特征 能 够 明确 地 判断 出 可 识别 样本 与 不 可 
识别 样本 这 一 特点 。 


6 结 语 


针对 网 络 文本 大 多 书写 不 规范 的 特点 ， 本 文 提出 
从 不 规范 文本 中 提取 特征 以 识别 作者 身份 的 方法 。 为 
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Using Non-standard Text Features to Identify Authors 


Guo Xu Qi Ruihua 
(School of Software, Dalian University of Foreign Languages, Dalian 116044,China) 


Abstract: [Objective] This paper aims to identify authors with features extracted from non-standard online texts. 
[Methods] First, we used the non-standard text similarity M defined by the Jaccard coefficient. Second, we adopted the 
frequency of non-standard text from the corpus. [Results] The recognition accuracy of the two features were 85.196 and 
80.2%. Adding the two features to the traditional recognition mechanism, the precision of the system increased by 5.896 
and 4%, respectively. [Limitations] We did not study the online texts from the syntactic and structure levels. 
[Conclusions] The proposed method could effectively extract the non-standard text features and then improve the 
accuracy of author identification. 
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